我一直在探索普通人通过创作来构建个人概念的途径。其中,我觉得语音对谈是门槛最低的途径之一。我的第一本书就是关于这个主题,叫做《人人都是播客》。GPT出来之后,日日工业革命,夜夜文艺复兴的节奏,也让我对未来充满好奇。
用语音和GPT互动
大模型技术有关的信息,天天都看到非常强大的目录,开源的技术探索,应用场景层出不穷,在这些新鲜事物中,我们想象未来各种科幻的、梦幻的、快乐的、或者恐惧的可能。
前期探索很多场景是实验性的,未来哪些应用场景真的能改变我们的生活目前还不清晰。很多人都在讨论作图、还有文字符号的应用,但我个人最感性的,还是和语音互动有关。还是那个课题:普通人如何通过创作,构建个人概念;而语音对谈交流,是门槛最低的途径之一。
为此,当我发现有语音相关的GPT应用,就开始去尝试了。
SpeechGPT & Call Annie
我自己测试了2个相关的语音互动的GPT应用,分别是SpeechGPT和Call Annie。
Call Annie来自国外的开发者 Chris Frantz,能让你直接与 ChatGPT 开启视频聊天。SpeechGPT来自github上的用户hahahumble,是一个开源网络应用程序,使用 Azure 语音服务来做语音识别和语音合成,可让用户与 ChatGPT 交谈。
这两个应用都还不能发出中文的语音,我只能跟它英文对话。无论是SpeechGPT还是AnnieGPT,他们的理解和总结能力很好,虽然我英语磕磕巴巴,但觉得它完全能get到我的点,语音直接交流没有障碍。多几个来回,结合prompt指令,能激发出有质量的对话。
SpeechGPT的交互是文字和语音同步进行,可以同时看到语音转成文字以及文字转成语音。但语音比较机械,几乎没有感情,比较难有对话的代入感。Annie有一个比较接近自然人的人设,有形象,有表情,语音带有情感,所以对话会比较有代入感。但是没有相应的文字。
播客录制场景和角色设定
无论是文字还是语音,和GPT交流,都最好做详细的场景和角色设定,来保证交流的内容有针对性,有真实与自然的互动体验。也就是,更像一个真实的人。
我选了一个语音交流的典型场景,播客录制来和GPT进行对话。正好这也是我熟悉的内容领域。我设置的场景是:GPT是主持人,我是嘉宾,它来采访我。我最近写了一本书名字叫《人人都是播客》,我们对谈的主题就是围绕这本书展开。
在SpeechGPT里,我假设它是知名主持人奥普拉,我在和Call Annie的对话里,干脆帮她编了一个角色,她是Annie,她有一档播客叫《good reader》,节目的定位就是分享好的新书等等。
具体的prompt包括:
角色设定:你是主播xx,你的节目是xx,我是你的嘉宾,我写了一本新书,请你来采访我。
流程设定:请做一个节目的开场;请结束今天的节目。
请它问我相关问题。例如:
- 请问我关于这本书的问题。
- 请再问我一个问题。
- 你怎么看《人人都都是播客》?
- 我向它发起相关问题。例如:
- 你觉得人在人工智能时代,创作的意义是什么?
- 你喜欢的播客节目是什么?
在让对方给我提问的时候,她提的问题还是挺实用的,比如她问我为什么会写这本书?你最希望读者从中获得什么?
她还会基于我的回答,我讲述的经历继续提问,例如我说我曾经在一家音频公司服务创作很多年,知道他们会遇到很多困难,我知道这些问题可以怎样去解决。她接着就会说觉得我这段工作经历很有意思,问我觉得新手做播客会遇到的困难是什么?
在对话的过程中,除了回答问题本身,满足我的要求本身,GPT会礼貌且温情地对我们聊的内容进行总结,互相聊反馈和感受。这是体验非常好的地方。GPT有很强的共情能力,能让人有“被听见”和“被看见”的治愈体验。
我把这两期节目都放在自己的实验播客专辑《四季沙龙》里了,可以通过喜马拉雅、小宇宙还有苹果播客app订阅收听,体验我和GPT对话的效果是怎样的。
未来的想象
这是刚开始的体验和尝试,但其实可以探索的角色还很多。例如她可以成为你的英语口语教练,教给你练习英语的场景,例如阅读、电影、生活等等。跟我交流。并且指出我在回答过程中,哪些用词和用法,可以换成更好的词,并告诉我原因,给我一个练习案例,去优化自己的表达。
它还可以成为你的life coach。你把你在生活或者个人职业发展中遇到的问题跟她倾诉,告诉她你的情况,感受和困惑,看他会给你什么样的答案,或者你可以让她问你一些关键问题,是不是有些问题的角度在你的认知之外,然后真的启发到了你,能帮助你做出一些突破。
changelog
20230514 初稿
参与matters.town的征文